توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر
- author بهناز حیدری دهکردی
- adviser ولی درهمی
- Number of pages: First 15 pages
- publication year 1390
abstract
در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می باشد. لذا، تولید عمل هر عامل نه تنها به وضعیت محیط بلکه به عملی که عامل های دیگر انتخاب می کنند وابسته است. بنابراین با توجه به پیچیدگی طراحی از روش های یادگیری برای تنظیم پارامتر های انتخاب عمل عامل ها استفاده شده است. روش-هایی که برای حل این گونه مسائل ارائه شده اند، اکثراً مبتنی بر اشتراک دانش عامل ها از طریق ایجاد توابع ارزش-عمل برای همه ی عمل های ممکن خود عامل و سایر عامل ها، در هر حالت است. با افزایش تعداد عامل ها ابعاد مسئله به صورت نمایی گسترش پیدا می کند. که باعث افزایش زمان یادگیری و افزایش حافظه مورد نیاز برای حل مسئله است. اکثر روش های ارائه شده با توجه به مطالعات انجام شده برای محیط ها با حالت و عمل گسسته تدوین شده اند؛ با توجه به اینکه مسائل دنیای واقعی مانند هدایت ربات ها ماهیت پیوسته دارند، نیاز به الگوریتم های پیوسته کارا داریم. در این پایان نامه دو ایده جدید برای حل مسئله همکاری در محیط های چند عامله با فضای حالت پیوسته ارائه شده است. مقادیر تابع ارزش حالت-عمل و ارزش حالت هر کدام تالی یک سیستم فازی سوگنو مرتبه صفر جداگانه هستند در مراحل آموزش مقادیر تالی قواعد تنظیم می شوند. تعداد ورودی های سیستم های فازی برابر با ابعاد فضای حالت است. ایده اصلی از روش یادگیری سارسا فازی ارائه شده است. نتایج تجربی بر روی مسئله قرار گرفتن متقارن عامل ها حول یک میز چندضلعی که نمونه ساده ای از فرم-بندی است؛ حاکی از افزایش سرعت یادگیری و بهبود کارایی سیستم است.
similar resources
یادگیری تقویتی براساس معماری عملگر- نقاد در سیستم های چند عامله برای کنترل ترافیک
در نیمه دوم قرن گذشته اغلب جوامع شاهد شروع پدیده ای بنام ترافیک شهری در خود بوده اند که علت رخداد چنین پدیده ای عبور تعداد زیادی خودرو در زمان یکسان از یک زیر ساخت حمل و نقلی یکسان می باشد. پدیده ترافیک شهری دارای پیامدهای اقتصادی و محیط زیستی کاملاً شناخته شده ای از جمله آلودگی هوا، کاهش در سرعت، افزایش زمان سفر، افزایش مصرف سوخت و حتی افزایش تصادفات می باشد. یکی از راه های اقتصادی برای مدیریت ...
full textیادگیری تقویتی براساس معماری عملگر- نقاد در سیستم های چند عامله برای کنترل ترافیک
در نیمه دوم قرن گذشته اغلب جوامع شاهد شروع پدیده ای بنام ترافیک شهری در خود بوده اند که علت رخداد چنین پدیده ای عبور تعداد زیادی خودرو در زمان یکسان از یک زیر ساخت حمل و نقلی یکسان می باشد. پدیده ترافیک شهری دارای پیامدهای اقتصادی و محیط زیستی کاملاً شناخته شده ای از جمله آلودگی هوا، کاهش در سرعت، افزایش زمان سفر، افزایش مصرف سوخت و حتی افزایش تصادفات می باشد. یکی از راه های اقتصادی برای مدیریت ...
full textتوسعه سامانههای چند عامله و یادگیری تقویتی در کنترل هوشمند چراغهای راهنمایی
امروزه یکی از معضلات جوامع شهری، ازدحام و ترافیک خودروها در معابر شهری است که منجر به آسیبهای مختلف اقتصادی، محیط زیستی و اجتماعی میشود. برای جلوگیری از این آسیبها، نیاز به بهبود زیر ساختهای فعلی حمل و نقل در شهرهای بزرگ بیش از پیش احساس میشود. تمرکز مقاله حاضر بر روی کنترل هوشمند چراغهای راهنمایی به عنوان یکی از شاخههای سیستمهای حمل و نقل هوشمند با استفاده از سامانههای چند عامله یادگی...
full textتوسعه کنترلر هوشمند چراغهای راهنمایی بر پایه یادگیری تقویتی حالت پیوسته در محیط ترافیکی میکروسکوپیک
افزایش روزافزون تعداد خودروها و در پی آن ترافیکهای سنگین شهری چالش بزرگی را برای کنترل بهینه ترافیک شهری برای مهندسین ایجاد کرده است. روش مناسب برای کنترل بهینه ترافیک هرچه باشد یقیناً باید وفق پذیر بوده تا بتواند ترافیک شهری را که دارای طبیعت پویا، پیچیده و تغییرپذیر است را بهخوبی مدیریت نماید. در این راستا تمرکز اصلی تحقیق حاضر کنترل هوشمند و توزیع یافته چراغهای راهنمایی بر پایه یادگیری تقو...
full textروشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات
: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...
full textترکیب یادگیری تقویتی پیوسته و یادگیری باناظر برای ناوبری ربات
استفاده از یادگیری باناظر در ناوبری ربات های متحرک، دارای چالش های جدّی همچون ناسازگاری داده ها، مشکل جمع آوری داده های آموزشی وخطای زیاد در این داده ها می باشد. لیکن استفاده از یادگیری تقویتی، که یک روش یادگیری تعاملی قدرتمند می باشد، مورد توجه واقع شد. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در مرحله آموزش می باشد. از این رو در این پایان نامه، یک ایده جدید برای استفاده موثّ...
15 صفحه اولMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر
Keywords
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023